הרצאה 10 - למידה וניבוי בלמידת חיזוקים (רסקולה וגנר, TD0)

למידת חיזוקים:

כלל המתאר את תהליך ההתנייה ואת חיזוי הגמול
מטרת הלמידה לפי הכלל היא למצוא משקל W כך שימזער את שגיאת הניבוי
$\begin{aligned} x & = {\begin{cases} 1, & when stimuli presented \\ 0, & otherwise \end{cases} \\ V & = w x \to reward prediction \\ Δ w & = - η \frac{d ϵ}{d w} = η (R - w x) x = {\begin{cases} η (R - w), & with stimuli \\ 0, & otherwise \end{cases} \end{aligned}$
תהליכים שונים ברסקולה וגנר:
- רכישה: הגירוי מופיע ביחד עם הגמול - המשקל מתכנס לגירוי
- הכחדה: הגירוי מופיע ללא הגמול - המשקל מתכנס ל-0
- חיזוק חלקי: כאשר הגירוי מופיע והגמול מתקבל רק בחלקים מהפעמים - המשקל מתכנס לממוצע הגמול.
- התנייה משנית: מקשרים גירוי ראשון לגמול ואז מקשרים גירוי שני עם הגירוי הראשון -> גם הגירוי השני מתקשר לגמול

שיטה לחיזוי תגמולים עתידיים על בסיס התנסות, כאשר המטרה היא לשערך את הגמול העתידי הכולל (בניגוד לרסקולה וגנר שדורש צימוד בזמן של הגמול לניבוי)
במקום הערכה שלמה בסוף אפיסודה, עדכונים רציפים בזמן
פיתוח חישובים ב TD0:
1. מציירים גרף מעברים בין המצבים השונים, כאשר S גדולה מסמנת שלב מסוים, s קטנה את המצב באותו זמן, ו R את הגמול הניתן במעבר בין השלבים. לדוגמא:
2. נסרטט טבלת מצבים, כאשר הערך ההתחלתי עבור כל מצב הוא 0
3. כדי למצוא את השינוי בערך של מצב לאחר מעבר נשתמש בנוסחא: $Δ V (S_{t}) = η [(R_{t + 1} + V (S_{t + 1})) - V (S_{t})]$
4. נזכור לחבר את הדלתא לערך הקיים בטבלה ולעדכן רק בשורה הבאה.
5. דוגמא לטבלת מצבים מלאה:
  !center